智能论文笔记

Efficiently Computing Nash Equilibria in Adversarial Team Markov Games

Fivos Kalogiannis , Ioannis Anagnostides , Ioannis Panageas , Emmanouil-Vasileios Vlatakis-Gkaragkounis , Vaggos Chatziafratis , Stelios Stavroulakis

分类：机器学习

2022-08-03

计算NASH平衡策略是多方面强化学习中的一个核心问题，在理论和实践中都受到广泛关注。但是，到目前为止，可证明的保证金仅限于完全竞争性或合作的场景，或者在大多数实际应用中实现难以满足的强大假设。在这项工作中，我们通过调查Infinite-Horizon \ Emph {对抗性团队Markov Games}，这是一场自然而充分动机的游戏，其中一组相同兴奋的玩家 - 在没有任何明确的情况下，这是一个自然而有动机的游戏，这是一场自然而有动机的游戏，而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理，并作为模拟更现实的战略互动的一步，这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法，在游戏的所有自然参数中都是多项式的，以及$ 1/\ epsilon $。拟议的算法特别自然和实用，它基于为团队中的每个球员执行独立的政策梯度步骤，并与对手侧面的最佳反应同时；反过来，通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件，从而导致对诱导的Lagrange乘数的自然解释。在此过程中，我们大大扩展了冯·斯坦格尔（Von Stengel）和科勒（GEB`97）引起的对抗（正常形式）团队游戏中最佳政策的重要特征。

translated by 谷歌翻译